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引入 隐 式 反馈 的 多 维度 推荐 算法 “ 
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(湖南 工业 大 学 计算 机 学 院 , 湖南 株洲 412000) 


摘 X. 现 有 的 推荐 算法 大 多 是 应 用 显示 反馈 信息 来 推荐 。 针 对 显示 反馈 信息 作出 的 推荐 在 准确 率 和 数据 稀疏 性 处 理 
上 还 存在 缺陷 的 问题 ， 引 入 了 隐 式 反馈 信息 ， 设 计 和 实现 了 一 种 引入 隐 式 反馈 的 多 维度 推荐 算法 (MCF)。 该 算法 涵盖 
用 户 、 项 目 和 隐 式 反馈 三 个 维度 的 信息 。 对 于 前 两 个 维度 的 信息 ， 通 过 云 模型 相似 度 建 模 ; 而 隐 式 反馈 维度 的 信息 ， 
主要 是 结合 概率 矩阵 分 解 模型 进行 处 理 。 之 后 再 把 这 三 个 维度 得 出 的 预测 评分 根据 权 值 进行 平衡 ， 得 出 最 终 预测 评分 
并 作出 推荐 。 实 验 数 据 表 明 ， 该 算法 在 召回 率 和 准确 率 上 的 表现 相对 于 其 他 算法 有 了 较为 明显 的 提升 ， 且 适合 大 数据 
环境 。 
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Multidimensional recommendation algorithm with implicit feedback introduced 


Liu Meibo, Man Junfeng, Peng Cheng, Liu Ming 


(College of Computer & Communication Hunan University of Technology, Zhuzhou Hunan 412000, Chian) 


c Abstract: The existing recommendation algorithms are mostly applied to display feedback information to recommend. There 
are still defects in the accuracy of recommendation and data sparse processing for recommendations made by displaying 
feedback information. Implicit feedback information was introduced, and a multi-dimensional recommendation algorithm 


(MCF) that introduces implicit feedback was designed and implemented. The algorithm covered three dimensions of user, 


S project, and implicit feedback. For the first two dimensions of information, it is modeled by the similarity of the cloud model. 


The information of the implicit feedback dimension was mainly dealt with by combining the probabilistic matrix decomposition 


model. Afterwards, the prediction scores obtained from these three dimensions were balanced according to the weights, and 
obtained the final prediction score and made recommendation. The experimental data shows that the algorithm's performance in 
terms of recall rate and accuracy has been significantly improved compared to other algorithms, and is suitable for big data 
environments. 
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究 热 点 。 

岗 有 的 推荐 算法 中 ， 主 流 应 用 的 推荐 算法 就 是 协同 过 滤 推 
网 络 的 迅速 普及 和 通信 方式 的 多 样 给 人 们 带 来 了 极 大 的 便 。 荐 算法 ， 主 要 可 分 为 基于 近邻 的 协同 过 滤 推 荐 和 基于 算 阵 分 解 
利 ， 同 时 也 造成 了 信息 量 的 急剧 增加 。 信 息 的 增多 也 带 来 了 越 ”模型 的 协同 过 滤 。 基 于 近邻 的 协同 过 滤 推 荐 算法 主要 是 通过 计 
来 越 多 的 垃圾 信息 ， 如 何 从 大 量 信息 中 筛选 出 人 们 需要 的 信息 。 算 相似 度 找 出 最 近邻 居 ， 青 通过 最 近邻 居 进 行 目标 用 户 对 目标 
就 需要 用 到 推荐 系统 。 而 现今 的 推荐 系统 大 多 利用 的 是 人 们 的 。” 项 目的 评分 预测 ， 最 后 作出 推荐 .1。 基 于 模型 的 协同 过 滤 现 今 
显 式 反馈 信息 中 1， 如 对 电影 的 评分 、 对 商品 的 评分 等 。 但 人 们 应 用 最 广泛 的 就 是 矩阵 分 解 [5, 矩阵 分 解 能 够 有 效 地 缓解 数据 
的 隐 式 反馈 信息 也 不 可 忽略 ， 如 用 户 的 浏览 记录 、 购 买 记录 、 稀 玻 问题 ， 扩 展 性 问题 也 得 到 了 一 定 改善 ， 但 矩阵 分 解 降 维 容 
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对 相关 电影 的 新 闻 的 关注 度 等 ， 这 些 隐 式 反 馈 信 息 获 取 容 易 ， 易 造成 数据 失真 ， 这 会 导致 推荐 误差 较 大 、 准 确 率 下 降 。 
且 信 息 量 较 大 。 因 此 ， 结 合 隐 式 反馈 信息 来 进行 推荐 已 成 为 研 针对 上 述 问题 ， 通 过 学 习 前 人 的 研究 成 果 ， 本 文 提出 一 种 
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引入 隐 式 反馈 的 多 维度 推荐 算法 。 该 算法 是 基于 Hadoop 分 布 
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其 中 : C 代表 常数 。 在 固定 超 参数 的 〈《 即 观测 噪声 方差 和 先 验 


式 平台 来 实现 的 ， 并 且 该 算法 选取 了 用 户 、 项 目 和 隐 式 反馈 三 
个 维度 的 数据 展开 研究 。 主 要 贡献 如 下 : 


a) 充 分 利用 了 用 户 、 项目、 隐 式 反馈 三 个 维度 的 数据 , 解决 
了 数据 稀 朴 和 单一 维度 数据 量 稀少 造成 的 推荐 质量 不 高 的 问题 。 


b) 有 效 结合 了 相似 度 模 型 和 和 矩阵 分 解 模 型 ， 使 得 显示 反馈 
数据 和 隐 式 反馈 数据 都 得 到 合理 的 应 用 。 
co) 给 出 了 三 个 维度 的 MapReduce 实现 方法 ， 提 高 了 该 算法 


的 运算 效率 和 可 扩展 性 。 
1 ”相关 研究 


1.1 概率 矩阵 分 解 模型 

概率 矩阵 分 解 PMF) 是 指 在 矩阵 分 解 的 基础 上 添加 了 概 
KIHNU. 假设 有 M 部 电影 ，N 个 用 户 和 评分 值 为 1~K 的 评分 
HERE. 4 Ri 表示 用 户 i 对 电影 j 的 评分 ，U ERpxn 和 VE Rpxm 
是 用 户 和 电影 的 隐 式 特征 矩阵 ， 列 向 量 Ui 和 Vi 分 别 表示 特定 
用 户 和 特定 电影 的 隐 式 特征 向 量 。 本 文采 用 高 斯 观测 噪声 来 设 
计 概 率 线性 模型 ， 如 图 1 所 示 。 


O JO 
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图 1 概率 线性 模型 
将 观察 到 的 评级 定义 为 条 件 分 布 ， 如 式 〈1) 所 示 。 


N M 
p(R|U,V, o°) =] [] [INR I UV,,o 0) 


i=1 j=1 


其 中 : NCx 4b o^) 是 指 具 有 均值 u MIZ 52 的 高 斯 分 布 的 概 
率 密度 函数 ; 本 是 一 个 指示 函数 ， 当 用 户 i 对 电影 j 进行 了 评分 
时 为 1, 否则 为 0。 并且 还 为 每 一 个 隐 式 特征 向 量 添加 了 一 个 均 
值 为 0 的 球面 高 斯 先 验 [1,11]， 如 式 (2〉 所 示 。 


pU |o?) -TIN, |0,027) 


i=1 


pv |o?) 7] [N(,10.62D Q) 
通过 取 对 数 得 出 用 户 特征 向 量 和 电影 特征 向 量 的 后 验 分 布 ， 


如 式 G) 所 示 。 
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i=l j=1 


In p(U,V | R,o’°, o}, oè) 3 
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方差 ) 的 情况 下 ， 最 大 化 式 GO. 所 示 的 对 数 后 验 概率 相当 于 用 
二 次 正则 化 项 最 小 化 公式 (4). 所 示 的 目标 函数 。 


E--Y > (R, -U; V) Y, | 


" T 
XIV 
A, 20^ 102,A, 20? 102 |è, 7J Frobenius 范 数 ,再 优化 学 
习 式 (0 中 的 U 和 V MB, 
1.2 相似 度 计算 
协同 过 滤 推 荐 算法 其 基本 思想 是 “ 物 以 类 聚 ， 人 以 群 分 ” 
依据 相似 性 而 产生 推荐 &9?]1。 
要 想 运用 协同 过 滤 推 荐 算法 , 其 数据 必须 是 一 个 矩阵 形式 ， 


如 表 1 PR. At U 是 用 


P, I 是 项 目 ， Rm 表示 J EPH E 


P m 对 项 目 集中 的 项 目 n 的 评分 。 
表 1 用 户 一 项 目 评分 
E b h In 
Ui Ri Ri? Ria Rus 
U2 R21 R22 Roa Ron 
Ua Ra 1 Raz Ra " Ra : 
Un Ru Rm,2 ios Rma P Rua 


该 算法 的 核心 就 是 寻找 最 近邻 居 。 要 想 找 到 邻居 必需 计算 
相似 性 ， 本 文 的 度量 相似 性 方法 采用 云 模型 相似 性 度量 方法 ， 
具体 如 下 。 

云 模型 相似 性 ， 先 根据 评分 矩阵 统计 得 
分 频 度 向 量 Ui-(ui,uo,usua4,us) CISism) ， 再 通过 道 向 云 算法 计 
算 特 征 向 量 如 下 : 


xls He = Sis Es| Ên= Js? - 2 zu e 
NT 


特征 向 量 Vi= (Exi,Eni,Eei) ，Vi= (Exj,Enj,Ee;) . 
V-V, 


sim(i, j) = cos(V,, V, ) = 一 一 一 一 一 (5) 
ARLAJ 


过 上 述 方法 计算 出 相似 用 户 后 , 在 根据 式 (6) 计算 来 产 


E Aa 


出 用 户 或 项 


的 评 


全 
a Bi 


2 cus Sim(i, j) * (GR, E R;) 
yo sim, J | 


R, 表示 项 目 i 的 平均 评分 ; 


R, =Ri+ 


i.d 


其 中 : NESI 表示 邻居 集 ; 
邻居 项 目的 平均 评分 。 


2 引入 隐 式 反馈 的 多 维度 推荐 算法 


本 文 主要 选取 了 项 目 、 用 户 和 隐 式 反馈 三 个 维度 数据 来 综 
合 得 出 最 终 预测 结果 , 下面 给 出 具体 推荐 示意 图 ,如 图 2 所 示 ， 
引入 隐 式 反馈 的 多 维度 推荐 算法 主要 由 建立 用 户 评分 矩 
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RAI 刘 美 博 ， 
车 、 基 于 用 户 云 模型 协同 过 滤 建 模 、 基 于 项 目 云 模型 协同 过 涉 "—- : 
N i. 一 P nesan mL Ux) *(R, , - R=) 
AER. REEN MEER UL Sic ERRAN. GTP UR, ;= Ri+ DY TOO (7) 
项 目 评分 矩阵 主要 是 通过 对 稀疏 矩阵 进行 填充 来 初步 解决 数 
据 稀 疏 问题 。 之 后 再 通过 三 个 维度 的 建 模 来 求 得 个 这 三 个 维度 甘于 项 目 云 模型 相似 度 计算 第 二 维度 的 预测 评分 ， 在 上 面 
的 预测 评分 ， 并 通过 权 值 分 配 得 出 三 个 维度 的 综合 评分 ， 再 依 和 矩阵 填充 的 基础 上 ,根据 式 (5) 计 算 项 目 间 的 相似 度 Sim(lis Ly), 
据 评 分 来 进行 推荐 再 使 用 式 (6) 求 得 预测 评分 ， 将 目标 用 户 Ui 对 目标 项 目的 
TEES 预测 评分 记 为 IRi;， 其 中 目标 项 目的 邻居 集 为 S OO. 
用 户 一 项 目 用 户 交 互 活 
[ — ee |^ —— ] 动 矩阵 ga Deae SUD) * (t, - Rr) " 
RIPE 2 XDUHZ 概率 矩阵 分 2 sol sim D) 
l 为 了 对 隐 式 反馈 数据 实验 的 开展 ， 本 文选 取 了 从 知名 影评 
基于 用 户 云 模型 基于 项 目 云 模型 基于 隐 式 反馈 网 豆瓣 怜 取 的 数据 进行 实验 ， 选 取 了 符合 条 件 的 4 万 多 个 用 户 
EAM RENE iaai ii 的 数据 集 ,每 个 人 收藏 的 电影 超过 25 部 , 交互 数据 超过 30 次 。 
2 具体 实例 如 表 2. 3 所 示 。 
1 2 用 户 收藏 信息 示例 
eie ID 收藏 的 电影 
173952145 降临 ， 速 度 与 激情 ， 机 械 公敌 ， 全 民 超人 ，.…… 
图 2 推荐 示意 图 209456781 独立 日 ， 当 幸福 来 敲 门 ， 变 脸 ， 空 中 监狱 ，.….… 
2.1 未 评分 项 的 预测 填充 198746028 荡 岛 余生 ， 变 相 怪 杰 ， 训 练 日 ， 木 乃 伊 ，.…… 
数据 稀 玻 问题 是 传统 推荐 算法 普遍 存在 的 问题 ， 会 导致 相 表 3 用 户 交 互 数 据 示例 
似 度 计算 困难 、 推 荐 准确 度 偏 低 。 We 过 采用 云 模型 相似 度 电影 简介 点 击 IMDB 链接 评论 分 享 
来 对 评分 矩阵 进行 评分 预测 填充 ， 再 利用 填充 好 的 评分 矩阵 进 速度 与 激情 2 5 3 2 
行 目标 用 户 对 目标 项 目的 评分 计算 。 其 有 效 解决 了 数据 稀疏 问 空中 监狱 0 0 5 3 
题 。 具 体 如 算法 1 所 示 。 HARE 1 3 7 4 
算法 1 未 评分 项 的 预测 填充 针对 该 数据 ,借鉴 了 文献 [10] 和 文献 [11] 中 的 相关 做 法 ,在 
输入 : 评分 矩阵 Rma 此 基础 上 进行 了 改进 。 具 体 方法 如 下 : 
输出 ， 预测 用 户 4 对 未 评分 项 目 ia 的 评分 。 Q@ 计 算 用 户 对 电影 的 隐 式 兴趣 程度 向 量 。 设 定 用 户 为 u, 
a) 根据 评分 矩阵 Rmxn， 统 计 出 项 目的 评分 频 度 向 量 用 户 对 电影 的 兴趣 信息 列表 S), 用户 的 交互 活动 矩阵 ACD, 
Ju=(i1,iz,i3,i4,is) (Isism) ， 再 通过 逆向 云 算 法 计算 特征 向 量 Vi 用 户 收 藏 的 感 兴 趣 电 影 列 表 LCu) ,SCu)={fsusb sj, A QD 
(Exi,Eni,Eei) (1<i<m) ; ={aul,au2,...,Aun} o 
b) 根据 式 〈5) 计算 ia 与 其 他 项 目的 云 相似 性 : -f s, € Lu) & 
sim(i,, J) = cos(V, ,V,) Pu ea) 
* ^. JV, | IV; Hh: as (1<=s<=n) 是 k 维 向 量 , 其 中 每 一 个 数据 为 交互 类 型 
ce) 将 第 三 步 的 相似 度 值 进行 大 到 小 排序 , 得 出 前 若干 项 出 现 的 次 数 。 具 体 交 互 类 型 如 下 : 
作为 邻居 集 NESI- (inis...) ; a) 用 户 是 否 查 看 电影 具体 剧情 简介 ; 
d) 得 出 邻居 集 NESI 后 ， 再 根据 式 (6) 计算 用 户 u 对 未 评 b) 用 户 是 否 点 击 IMDB 链接 ，; 
分 项 目 ia 的 评分 : c) 用 户 是 否 评论 和 回复 他 人 评论 ; 
RR ee D* Gua R) ww 重 系数 a- 
ui yNENETONT j 交 文 设 定 权 重 系数 a=(1,4,6,10)， 
通过 式 C100 合并 交互 数据 。 
2.2 三 个 维度 的 预测 评分 计算 1 > threshold 
基于 用 户 云 模型 相似 度 计算 第 一 维度 的 预测 评分 ， 在 上 面 a 
矩阵 填充 的 基础 上 , 根据 式 (5) 计 算 用 户 间 的 相似 度 Sim(Ui, U), 和 
再 使 用 式 (6) 求 得 预测 评分 ， 将 目标 用 户 Ui 对 目标 项 目的 j=l l 
预测 评分 记 为 URij， 其 中 目标 用 户 的 邻居 集 为 S (UD 。 其 中 : threshold 为 交互 次 数 的 三 四 分 位 数 。 然 后 可 得 到 用 户 对 


影 的 隐 式 兴趣 程度 向 量 I Qu). ={ibiz…in}。 
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@ 计 算 用 户 的 兴趣 程度 评分 及 评分 向 量 。 通 过 式 (11) 得 9. 9 是 调和 参数 ,q 为 Ua 打 过 分 的 项 目 集 大 小 ,MN 取 值 
出 兴趣 程度 评分 。 如 下 : 


Ts = (w+ — wi ,)s,, 
其 中 : rus 为 用 户 对 电影 的 最 终 兴 趣 评分 ，w 为 权重 参数 ， 取 值 
为 0.85， 得 出 评分 向 量 R〈u) (run...) 

加 计算 评分 矩阵 R 中 某 一 预测 评分 。 通 过 式 〈12) 得 出 预 


测评 分 。 


l.m"- n") »0,M =m", N =n"; 


2.(m+n)>0,M=m',N=n'; 
3.(m+n)>0,M =m,N =n; 
4.M =N =0,; 
然后 根据 式 (20) 计算 目标 用 户 对 未 评分 项 目的 综合 预测 
平分 ， 算 出 综合 预测 评分 后 ， 再 把 评分 值 进行 排序 ， 根据 TOP- 
N 算法 03 作 出 推荐 。 
PR,,-axUR,, *bxIR,; tü-a-D FR, ; 
2.4 引入 隐 式 反馈 的 多 维度 推荐 算法 实现 
该 算法 主要 可 分 为 以 下 几 个 步骤 进行 具体 实现 : 根据 填充 
后 的 评分 矩阵 计算 基于 用 户 和 基于 项 目 维度 的 预测 评分 ， 根 据 
隐 式 反馈 计算 基于 隐 式 反馈 维度 的 预测 评分 ， 动 态 确定 权 值 分 


< 


K 
FR, = DU Ve - UV; , 


k=1 


u € (l,..., N), i € (1,...,M),k € (l,..., K) 
其 中 : U 为 用 户 特征 矩阵 ; V 为 电影 特征 矩阵 ，K 为 特征 数 。 
而 对 于 未 知 元 素 本 文 使 用 AMAN 方法 > ]l 设 为 0, 然后 再 经 过 
PMF 模型 进行 训练 得 出 最 终 推荐 结果 。 具 体 示 意图 如 图 3 所 示 。 


(12) 
(20) 


ZA H3 ha ] 
eim 2 xxxi |. 配 ， 计 算 最 终 的 综合 预测 评分 ， 根 据 项 目 最 终 预测 评分 高 低 为 
型 1 TE 》 pad Mrd 
2 ”行为 向 量 门 m 标 用 户 作出 推荐 。 有 具体 如 算法 2 所 示 。 
类 型 2 "UR og 算法 2 引入 隐 式 反馈 的 多 维度 推荐 算法 
3 分 | H 输入 已 填 充 的 评分 矩阵 Ras, BH B. v. s ò WAS 
R 过 
量 一 六 数 $ 、9， 隐 式 数据 的 项 目 特征 算 阵 Q， 用 户 特征 矩阵 P， 正 
用 户 兴趣 标注 向 量 推 则 因子 》 EIRO M-A) HE L. 
= d 输出 ， 为 目标 用 户 Us 推荐 的 前 K 个 项 目 编号 。 
T 数据 平衡 。 L 根据 式 (13) (14) 求 得 用 户 和 项 目的 近邻 群 S (Us) 
co 
= 图 3 基于 隐 式 反馈 的 电影 推荐 示意 图 -(Ui,..., UAI S GD - (Ls...) 
@ 23 最 终 预测 评分 求 出 目标 用 户 Us 的 已 评分 项 目 集合 Iu={ ,TI 


接收 以 上 得 出 的 三 个 预测 评分 ， 动 态 确定 三 个 评分 的 权 值 


分 配 , 借鉴 文献 [17] 的 方法 引入 近邻 群 和 信任 子 群 , 并 按 式 (13) 
和 (14) 得 出 相关 对 象 集合 。 


forj from 1 to n do 
If Ua did not rate I j then 
for i from 1 to s do 


2 
3 
4 
5 
6.  ifUirated I; then 
7 
8 
9 


S(U,) - (U, | Sim(U,,U ) > 1a £ x] (13) 
Su) -U,|Simü,1)»v.jey) (14) Underl += USim(U4U;); 
近邻 群 大 小 |S(Ua)=m; |S(I)p-n. Onl += USim(U4U)) * (Rij - UAvg(U))); 
S'U,) - (U,| Sim(U,,U.) > u& end for 
|, Oly, >,a +x} a 10. If Underl — 0 then URaj = UAvg(U); 
S'U)-2U,| Sim, 1) >v & 11. Else URaj = UAvg(Ui) + Onl/Underl; 
[U, ^U, >ô, jy) Pu 12. fori from 1 tot do 
信任 子 群 大 小 |IS(UalFm'; |S'(I)p-n': EP u, v, s 8 Jy] 13. if Uirated I; then 
值 。 14. Under2 += ISimdij,I); 
S'(U,) -(U,| Sim(U,,U,)» u&R,,*0a*x) (17) 15. On2 += ISim(I;I;) * (RairIAvg(D)); 
S'U) 2 U,| Sim, IL) »v&R,,20,js y) (18) 16. end for 
相关 对 象 集合 大 小 |S"UalFm'",|S"G)Fa"。 其 中 u. v AN 17. If Under2 — 0 then IRaj= IAvg(Ij); 
值 。 18. Else IRaj = IAvg(Ij)- On2/Under2; 
Wa. b 分 别 为 用 户 维度 和 项 目 维度 的 权 值 ， 则 1-a-b 为 隐 19. for 和 in (ho1-24) do 
式 反 馈 维 度 的 权重 。 20. for x in (0,n) do 
xM " gx N l 21.  [Quxı,...,QuxL]—Search(ix,à,Q) 
bxM+OxN+I  ġxM+9xN=+q do) 22. Rrx—(AxnxI+QuTQu)! 
]j-üzpz dq 23. for x in (0,L) do 


ÓxM -OxN«q 
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n LÀ 
Pux* 一 YO R,Qu, )xr, 
z-0 y-0 
24. end for 
25. [Pi,...,Pix ] — Search(u P) 
26. Rpirc—(AxnxHPiTPi)! 
27. forxin (0,L) do 
n LÀ 
Qix— > (YR, Pi, ) xr. 
z-0 y-0 
28. end for 
29. end for 
30. end for 
31. FRaj= PuQi; 
32. calcWeight(a,b,1-a-b); 
33. PRaj= a*URaj+ bxIRaj+(1-a-b)*FRaj ; 
34. Store(P,PR,;); 
35. end for 
36. store(P); 
37. Return Top(k); 


分 ， 第 12-18 行 通过 项 目 相似 度 计算 项 目 维度 的 预测 评分 ， 第 


Map 阶段 : 根据 相似 度 的 值 ， 首 先 基于 项 目 这 一 维度 得 出 


| | 
刘 美 博 ， 等 : 引 pipa E a a 


MI 
(ai 
z 


每 个 项 目 相似 度 最 高 的 N 个 项 目 定 义 为 邻居 , 以 项 目 为 key 值 、 


项 目 邻 居 为 value 值 输出 。 然 后 基 习 
户 相 似 度 最 高 的 N 个 项 目 定义 为 邻居 ， 以 用 户 为 key 值 、 用 户 
邻居 为 value 值 输出 。 


Reduce 阶段 : 接收 Map 阶段 的 数据 ,根据 式 (7) 和 (8) 
计算 出 两 个 维度 目标 用 户 对 未 评分 项 目的 预测 评分 。 


2) 对 隐 式 反馈 维度 的 处 理 


QD 用 户 特 征 和 矩阵 更 新 的 MapReduce 处 理 


Map 方法 : 


输入 : 


输出 : 


( 行 号 line_key, (电影 号 ,用户 号 ,对 应 评分 了 ) ) 。 


(HP Suy (电影 号 ,对 应 评分 r) ) 。 


1. 根 据 行 号 将 《〈 行 号 line key, CRI S iH ux 
分 T) ) 映射 为 用 户 号 


2.if í 
3. 


Reduce 方法 : 


输入 : 


区 


T5 line key 小 于 总 行 数 M: 


输出 (用 户 号 u, (电影 号 i, 对 应 评分 r) ) 


CH 


P'4 u, CH 


Œ 


该 算法 第 5-11 行 通过 用 户 相 似 度 计算 用 户 维度 的 预测 评 


19-33 行 通过 概率 矩阵 分 解 计算 隐 式 反馈 维度 预测 评分 ， 之 后 
过 动态 权 值 分 配 求 得 三 个 维度 的 权 值 ， 再 通过 计算 得 出 最 终 


通 
宗 合 预 测评 分 ， 并 把 该 评分 降序 排列 ， 选 出 前 k 个 推荐 给 目标 


上 
IH 


户 Ua。 


2.5 推荐 过 程 的 MapReduce 实现 


为 了 方便 并 行 化 处 理 ， 必 须 对 相关 步骤 进行 mapreduce 实 
现 。 具 体 如 下 : 

1) 对 前 两 个 馈 维 度 的 处 理 

@ 评 分 矩阵 的 MapReduce 

Map 阶段 : 接收 输入 的 <key,value> 键 值 对 ， 其 中 基于 项 
这 一 维度 key 为 项 目的 ID，value 为 用 户 的 ID 与 评分 值 ， 基于 
用 户 这 一 维度 key HHJ H ID, value 为 项 目的 ID 与 评分 值 。 
然后 进行 切 分 工作 ， 将 原始 数据 切 分 成 若干 记录 ， 检 查 数据 是 
FAHM., Shuffle 排序 聚集 和 分 发 都 以 key 值 为 依据 ， 然 后 再 将 


合理 的 数据 发 送 至 管道 ， 进 入 reduce 阶段 。 
Reduce 阶段 :接收 Map 阶段 的 数据 ， 根 据 key 值 进行 合 


并 ， 得 到 评分 矩阵 。 


相似 度 计 算 的 MapReduce 
Map 阶段 : 接收 评分 矩阵 后 ， 对 每 个 评分 数据 进行 提取 ， 


其 于 项 目 


这 一 维度 以 项 目 对 (ix,iy) 作为 key 值 , 项 目 对 应 的 评 


分 对 (Sx,Sy) 作为 value 值 输出 。 基 于 用 户 这 一 维度 以 用 户 对 
(uwuy) 作为 key 值 ， 用 户 对 应 的 评分 对 (Sx,Sy) 作为 value 值 
输出 


Reduce 阶段 : 接收 Map 阶段 的 数据 ， 根 据 式 (5) 计算 项 
间 的 相似 度 和 计 用 户 间 的 相似 度 ; 将 结果 保存 输出 。 
@ 预 测评 分 的 MapReduce 


输出 : 


1.for 


i 
特征 数 K, 项 目 特征 矩阵 Q 


CHF u EWAF A) ,用 户 特征 矩阵 P 了 ) 
入 in 入 列表 &&xin(0, n)do 


2.Search(ix,%,Q) 得 出 对 应 电影 特征 向 量 [Quxi,…,Quxk] 


3. 
4. 


2; 


iE SEQoxnx-QuTQu)'! 得 出 评分 值 Rek 
for x in (0,k) do 
n k-l 


计算 2 R,Qu,.) x r, 得 出 Pux 


x-0 y-0 


6. 输 出 更 新 后 的 用 户 特征 矩阵 U 


OM H FIERE ME EX HI MapReduce 处 理 

Map 方法 : 

输入 : ( 列 号 column key,( 电 影 号 i, 用 户 号 4, 对 应 评分 D) 
输出 : (电影 号 i,( 用 户 号 u， 对 应 评分 了))。 


1. 根 据 列 号 将 ( 列 号 column key, (E i, 


分 了) 映射 


24f fj 


为 电影 号 


[5 line key 小 于 总 列 数 N; 


3. 输 出 〈 电 影 号 让 《用 户 号 山 对 应 评分 r) ) 


Reduce 方法 : 
(电影 号 i,( 用 户 号 ,对 应 评分 r) 对 列表 ) , 列表 ， 
征 数 k, OW h H H A REE pE Po 


输入 : 


x 


输出 : 


1.for 和 in 和 列表 &&xin(0, n) do 


2. 
5. 
4. 


5. 


nh 


(《〈 电 影 号 1 正则 因子 和 ) ,项 目 特征 矩阵 Q) 。 


Search(ux ,入 ,U) 得 出 对 应 用 户 特 征 向 量 [Pixi,…,Pixx] 
计算 (XxnxI+PiTPi)! 得 出 评分 值 Ria 
for x in (0,k) do 


n k-1 
iE Y (2 R, Pi) Xr ft Qi 


x-0 y-0 


8 更 新 后 的 项 目 特征 矩阵 


用户 这 一 维度 得 出 每 个 用 


影 号 1 对 应 评分 T) 对 列表 ) ,列表 ， 


o 


JP ,对 应 评 
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Q. 


通过 QD@， 分 别 计算 出 了 } 
再 通过 式 (12) 可 计算 某 一 预测 订 


iPUBHIE 


均 方 根 误差 RMSEU?, 


RMSE = a Y, GR, - ny 
| R | (u,i)eR 


其 中 : R 为 评分 集 ，FRui 为 预测 评分 ，rui HN 


H RMSE 51 


ix: 


一 < 


Map 方法 : 


值 确 度 成 反 向 关系 。 
@@ 均 方 根 误 差 (RMSE) 计算 的 MapReduce 处 理 


矩阵 P 和 项 目 


特征 


JERE 


分 ， 并 通过 式 (21) 计算 


Q1) 


分 集中 的 评分 ， 


输入 : GTE line key, (电影 号 1 用 户 号 山 对 应 评分 r) ) X 
列表 ,特征 数 k@ 得 出 的 用 户 特征 矩阵 已 @ 得 出 的 电影 特征 矩阵 
Q. 

输出 : CAES) 。 

1.for à in 和 列表 do 

2. Search(u ,和 ,P) 得 出 每 一 用 户 特 征 疝 量 [41,…,ux] 

3. Search(i ,X,Q) 得 出 每 一 电影 特征 向 量 [ij,…,ik] 

a Dui 并 设 其 为 

5 计算 Ga-D2: 并 设 其 为 ES 

6. ”输出 OES) 

Reduce 方法 : 

输入 : (ES 列表 ) 。 

输出 : RMSE 。 

计算 CY ES) / n 得 出 RMSE 

Tl 

1. 输 出 RMSE 

通过 ©@@ 的 迭代 执行 ,直到 RMSE 不 再 减 小 ， 取 最 小 的 
入 值 和 特征 算 阵 ， 计 算出 预测 评分 。 通 过 上 述 所 有 算法 ， 再 依 
据 3.4 所 示 作 出 推荐 。 

3 ”实验 及 分 析 
3.1. 实验 环境 与 数据 度量 标准 

本 文 用 七 台 普通 的 PC 机 搭建 Hadoop 组 成 集群 ， 命 名 为 

master. slavel-slave6. DA TIEI e BU S731). "le 4 所 示 。 
表 4 数据 集 描 述 

数据 集 户 数 项 目 数 选择 行为 

训练 集 33 213 84 633 5 095 277 

测试 集 8 156 23 982 151 972 

对 数据 划分 为 训练 级 与 测试 集 , 比例 大 概 为 4:1。 采 用 Rank 
值 反映 召回 率 ( 查 全 率 ) 和 Top-k 命中 率 反 映 准 确 率 (precision )， 
命中 率 、 召 回 率 与 推荐 质量 都 成 正 向 关系 ， 如 式 〈22) MR. 
Rank 值 表示 实际 选择 的 电影 在 推荐 列表 中 所 占 百 分 比 位 置 , 实 
际 选择 电影 在 首位 , Rank 值 为 0%, 在 最 后 , Rank 值 为 100%。 
命中 率 指 推荐 给 用 户 的 K 部 电影 ， 用 户 实际 选择 的 电影 所 占 的 
比例 。 推 荐 情况 示例 如 表 5 所 示 。 


表 5 推荐 情况 示例 


ChinaXiv 合 作 期 十 
pinak VES CERTI a 


Xx Ed, €. 


喜欢 A B 

不 喜欢 C D 
BEK = A/(A+0O), 准 确 率 =A/(A+B) (22) 
并 采用 加 速 比 表 示人 处 理 海量 数据 时 集群 节点 数 对 性 能 方面 


的 影响 。 加 
的 时 长 ; Tn 


J 
N; 


速 比 定 义 : K-Tv/Ta. 其 中 : TI 表示 单 节 点 运行 耗费 


表示 个 节点 运行 耗费 的 时 长 。 


3.2. 加速 性 能 测试 实验 


该 实验 


要 是 针对 不 同 的 TaskTracker 节点 , 测试 该 算 


的 3 


法 在 Hadoop 平台 
必须 先 确定 正则 因子 入 值 与 RMSE 值 ， 


时 效 性 方面 是 否 显著 提升 。 进 行 该 实验 前 
体 取 值 如 表 6 所 示 。 
表 6 不 同 入 值 对 应 的 RMSE 值 


入 


0.01 


0.03 0.05 0.06 0.07 0.08 


RMSE 


0.979 


0.942 0.923 0.920 0.921 0.923 


从 表 中 可 以 看 到 ， 当 入 (873 0.06 时 得 到 的 RMSE 值 最 小 ， 


所 以 对 入 的 取 值 为 0.06。 得 到 入 后， 


再 进行 加 速 比 实验 ， 分 别 


选取 全 部 数据 集 和 一 部 分 小 数据 集 进行 实验 ， 具 体 结果 如 图 4 
所 示 。 

小 数据 集 | 

4|-o- 全 集 

ki 2 3 节点 数 5 6 T 

图 4 加 速 比 实验 图 
从 图 4 可 看 出 ， 当 集群 节点 数 从 1 加 到 3 时 ， 加 速 比 几乎 

FREK, TA 3 以 后 增 速 下 降 。 说 明 节 点 增加 确实 能 提高 
效率 ， 但 是 理论 上 增加 一 个 节点 提升 1 倍 效率 ， 在 实际 上 很 难 
达到 。 而 对 比 两 个 数据 集 可 以 发 现 ， 数 据 集 越 大 ， 加 速效 果 越 
明显 。 


333 与 其 他 推荐 算法 的 对 比 实验 


下 面 主 


p: 
E 


巴 本 文 算法 (iMCF) 与 基于 隐 式 反馈 的 矩阵 分 解 


算法 (iMF)、 


过 滤 算 法 (IBCF) 算 法 进行 


基于 用 户 的 协同 过 滤 算 法 (UBCF)、 基于 项 目的 协同 


[实验 比较 ， 得 到 各 个 阶段 的 数据 。 


xL 


先 选取 不 同 
准确 率 ， 具 


况 下 的 Rank 值 ， 


种 算法 的 准 


的 K 值 (推荐 队列 的 长 度 ) 进行 实验 ， 得 出 对 应 的 
体 结果 如 图 5 所 示 。 然 后 比较 这 三 种 算法 在 相同 情 
La nk 6 所 示 。 
5. 6 的 比较 可 以 看 出 ， 当 K 值 逐 渐 增 大 时 ， 这 三 
确 率 逐渐 下 降 ， 召 回 率 在 逐步 增加 。 不 同 K 值 时 


iMCF 算法 都 能 得 到 最 大 的 准确 率 和 召回 率 ， 并 且 iMCF 算法 


对 于 准确 率 


n 


率 的 提升 比较 明显 。 这 说 明 iMCF 算法 比 


MA 


AL 


他 两 个 算法 


的 推 


di 
= 


量 更 佳 ， 准 确 度 更 好 。 
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4 ”结束 语 


针对 越 来 越 庞大 的 网 络 资源 和 以 往 推荐 算法 的 不 足 ， 本 文 
提出 了 一 种 引入 隐 式 反馈 的 多 维度 推荐 算法 (MCF)。 该 算法 充 
分 利用 了 Hadoop 集群 的 优势 ， 有 效 结合 了 云 模型 ， 引 入 了 隐 
式 反馈 数据 ， 并 且 通 过 动态 确定 权重 ， 使 得 目标 用 户 对 目标 项 
目的 预测 评分 更 加 精确 。 实 验 数据 表明 ， 该 算法 能 适应 大 数据 


环境 ， 并 由 于 利用 了 云 模型 和 三 个 维度 数据 ， 数 据 稀 疏 性 问题 
也 得 到 了 合理 的 解决 ， 推 荐 质量 也 上 升 了 一 个 档次 。 而 随 着 时 
间 的 变化 ， 人 们 的 兴趣 也 会 发 生 改 变 ， 如 何 来 衡量 变化 对 推荐 
质量 的 影响 ， 是 笔者 下 个 阶段 的 研究 重点 。 
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